1
Menghadapkan Paradigma Pemanfaatan Data: Spektrum Pelabelan
EvoClass-AI003Lecture 10
00:00

Menghadapkan Paradigma Pemanfaatan Data: Spektrum Pelabelan

Keberhasilan penerapan model Machine Learning sangat bergantung pada ketersediaan, kualitas, dan biaya data yang telah diberi label. Dalam lingkungan di mana anotasi manusia mahal, tidak layak, atau sangat spesialis, paradigma standar menjadi tidak efisien atau bahkan gagal total. Kami memperkenalkan spektrum pelabelan, yang membedakan tiga pendekatan utama berdasarkan bagaimana mereka memanfaatkan informasi: Pembelajaran Terawasi (SL), Pembelajaran Tak Terawasi (UL), dan Pembelajaran Semi-Terawasi (SSL).

1. Pembelajaran Terawasi (SL): Kualitas Tinggi, Biaya Tinggi

SL bekerja pada dataset di mana setiap input $X$ secara eksplisit dipasangkan dengan label kebenaran sejati $Y$. Meskipun pendekatan ini biasanya mencapai akurasi prediksi tertinggi untuk tugas klasifikasi atau regresi, ketergantungannya pada anotasi yang padat dan berkualitas tinggi bersifat intensif sumber daya. Kinerja menurun drastis jika contoh yang dilabeli langka, membuat paradigma ini rapuh dan sering kali tidak layak dari segi ekonomi untuk dataset besar yang terus berkembang.

2. Pembelajaran Tak Terawasi (UL): Penemuan Struktur Tersembunyi

UL hanya bekerja pada data tanpa label, $D = \{X_1, X_2, ..., X_n\}$. Tujuannya adalah menarik kesimpulan struktur intrinsik, distribusi probabilitas dasar, densitas, atau representasi bermakna dalam manifold data. Aplikasi utamanya termasuk klastering, pembelajaran manifold, dan pembelajaran representasi. UL sangat efektif untuk pra-pemrosesan dan rekayasa fitur, memberikan wawasan berharga tanpa bergantung pada masukan manusia eksternal.

Question 1
Which learning paradigm is designed specifically to mitigate high reliance on expensive human data annotation by utilizing abundant unlabeled data?
Supervised Learning
Unsupervised Learning
Semi-Supervised Learning
Reinforcement Learning
Question 2
If a model's primary task is dimensionality reduction (e.g., finding the principal components) or clustering, which paradigm is universally employed?
Supervised Learning
Semi-Supervised Learning
Unsupervised Learning
Transfer Learning
Challenge: Defining the SSL Objective
Conceptualizing the Combined Loss Function
Unlike SL, which optimizes solely based on labeled fidelity, SSL requires a balanced optimization strategy. The total loss must capture prediction accuracy on the labeled set while enforcing consistency (e.g., smoothness or low density separation) across the unlabeled set.

Given: $D_L$: Labeled Data. $D_U$: Unlabeled Data. $\mathcal{L}_{SL}$: Supervised Loss function. $\mathcal{L}_{Consistency}$: Loss enforcing prediction smoothness on $D_U$.
Step 1
Write the general form of the total optimization objective $\mathcal{L}_{SSL}$, incorporating a weighting coefficient $\lambda$ for the unlabeled consistency component.
Solution:
The conceptual form of the total SSL loss is a weighted sum of the two components: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. The scalar $\lambda$ controls the trade-off between label fidelity and structure reliance.